Chapitre 7 Tests - Données qualitatives

Au chapitre 6, les observations d'un échantillon X1, X2, …, Xn représentent des quantités mesurées — des poids, des longueurs, des résultats de tests psychométriques, etc. Nous passons maintenant aux données dites qualitatives ou catégorielles: chaque élément de l'échantillon est catégorisé, et les observations sont des décomptes: le nombre d'observations appartenant à telle ou telle catégorie. 

Il sera donc question de proportions là où il était question de moyennes au chapitre 6.  Lorsque les données représentent une classification en deux catégories (succès et échec) le paramètre d’intérêt est normalement une proportion ou une probabilité : la probabilité qu’une personne tirée dans une population appartienne à un groupe culturel donné; ou la probabilité qu’une pièce fabriquée soit défectueuse.  On voudra donc tester une hypothèse du genre p = po, où po est une valeur donnée. Cette hypothèse est l’analogue qualitatif de l’hypothèse µ = µo.  


Ce problème est généralisé lorsque chaque observation est classée en plus d’une catégorie.  C’est le cas, par exemple, lorsqu’on demande à une cliente de coter la qualité du service reçu sur une échelle de 1 à 5.  Le modèle est caractérisé par un vecteur de 4 probabilités p = [p1 ; p2 ; p3 ; p4] (p5, étant fonction des quatre premiers, p5 = 1 ‑ (p1 + p2 + p3 + p4) n’est pas un cinquième paramètre indépendant). L’hypothèse qui correspond à p = po est p = po, où po est un vecteur de probabilités fixes.  Le test de cette hypothèse est appelé test d’ajustement.  Lorsque les composantes de po sont égales, on parlera d’un test d’uniformité.


Parallèlement au test d’égalité µ1 = µ2, on verra comment tester l’hypothèse d’égalité de deux probabilités, p1 = p2.  Les deux tests peuvent se révéler utiles dans un même contexte : on compare un groupe expérimental à un groupe témoin. Lorsque l’efficacité du traitement est mesurée par la probabilité de rétablissement, on compare deux probabilités et non deux moyennes.  


Là aussi le problème se généralise au cas de deux vecteurs, p1 et p2.  Et se généralise plus encore : certains modèles s’expriment en fonction de plusieurs vecteurs de probabilité, p1, p2, …, pk et l’hypothèse à tester sera p1 = p2 = … = pk . Ce test est appelé test d’indépendance.